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(54) Title: METHOD FOR SIGNALLING A NOISE SUBSTITUTION DURING AUDIO SIGNAL CODING 




(54) Bezeichnung: VERFAHREN ZUM SIGN ALIS DSREN EINER RAUSCHSUBSTITUTION BEIM CODIEREN BINES AUDIOSIG- 
NALS 



(57) Abstract 



The invention relates to a method for signalling a noise substitution during audio signal coding. According to said method, the audio 
signal is first transformed in the frequency range to obtain spectral values. The spectral values are subsequently grouped to form spectral 
value groups. On the basis of a detection whether a group of spectral values is a noise group or not, a coding table is allocated to a 
non-noise group or a tonal group by means of a coding table number for redundancy coding of the same. If a group is a noise group it 
is allocated an additional coding table number which does not refer to a coding table in order to signal that this group is a noise group 
and that it must not be redundancy coded. By signalling noise substitution by means of a Huffman-code table number for noise groups 
of spectral values which are for instance scale factor band sections and which must not be redundancy coded, an opportunity is provided 
for implementing availability of a noise substitution in a scale factor band in the bit flow syntax of the MPEG-2 Advanced Audio coding 
Standard, without intervening in the basic coding structure and without having to touch the structure of the existing bit flow syntax. 

(57) Zusammenfassung 

Bei einem Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals wird das zeitliche Audiosignal 
zuerst in den Frequenzbereich transform iert, urn Spektralwerte zu erhalten. Die Spektralwerte werden anschlieBend in Gruppen von 
Spektralwerten gruppiert. Aufgrund einer Erfassung, ob eine Gruppe von Spektralwerten eine rauschhafte Gruppe ist oder nicht, 
wird einer nicht-rauschhaften oder tonalen Gruppe raittels einer Codiertabellennummer eine Codiertabelle zum Redundanz-Codieren 
derselben zugewiesen. Falls eine Gruppe rauschhaft ist, wird derselben eine zusatzliche Codiertabellennummer zugewiesen, die nicht 
auf eine Codiertabelle verweist, urn zu signalisieren, daB diese Gruppe rauschhaft ist und daher nicht redundanz-codiert werden muB. 
Durch Signalisieren der Rauschsubstitution durch eine Huffmari-Codiertabellennummer fur rauschhafte Gruppen von Spektralwerten, die 
z.B. Abschnitte aus Skalenfaktorbandern sind, welche nicht redundanz-codiert werden mttssen, ist eine Moglichkeit implementiert, das 
Vorhandensein einer Rauschsubstitution in einem Skalenfaktorband in der Bitstromsyntax des Standards MPEG-2 Advanced Audio Coding 
(AAC) zu implementieren, ohne daB in die grundsatzliche Codiererstruktur eingegriffen werden muB, und ohne daB die Struktur der 
bestehenden Bitstromsyntax angetastct werden muB. 
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Verfahren zum Signalisieren einer Rausohsubstitution beim 
Codieren eines Audiosignals 

Beschreibur)q 

Die vorliegende Erfindung bezieht sich auf Audiocodierver- 
fahren und insbesondere auf Audiocodierverfahren nach dem 
Standard ISO/MPEG, wie z. B. MPEG-1, MPEG-2, MPEG-2 AAC, zur 
datenreduzierten Darstellung von hochqualitativen Audio- 
signalen. 

Der Standardisierungskorper ISO/IEC JTC1/SC29/WG11, der auch 
als die Moving Pictures Expert Group (MPEG) bekannt ist, 
wurde 1988 gegriindet, urn digitale Video- und Audiocodier- 
ungsschemen fiir niedrige Datenraten zu spezif izieren. Im 
November 1992 wurde die erste Spezif ikationsphase durch den 
Standard MPEG-1 vollendet. Das Audiocodiersystem nach 
MPEG-1, das in ISO 11172-3 spezifiziert ist, arbeitet in 
einem Einkanal- Oder Zweikanalstereo-Modus bei Abtastfre- 
quenzen von 32 kHz, 44,1 kHz und 48 kHz. Der Standard MPEG-1 
Layer II liefert Rundfunkqualitat, wie sie durch die Inter- 
national Telecommunication Union spezifiziert ist, bei einer 
Datenrate von 128 kb/s pro Kanal. 

In seiner zweiten Entwicklungsphase bestanden die Ziele von 
MPEG darin, eine Mehrkanalerweiterung fiir MPEG-l-Audio zu 
definieren, die zur existierenden MPEG-l-Systemen rtickwMrts- 
kompatibel sein sollte, und ebenfalls einen Audiocodier- 
standard bei niedrigeren Abtastfrequenzen (16 kHz, 22,5 kHz, 
24 kHz) als bei MPEG-1 zu definieren. Der rtickwSrtskompa- 
tible Standard (MPEG-2 BC) sowie der Standard mit niedri- 
geren Abtastfrequenzen (MPEG-2 LSF) wurden im November 1994 
vollendet. MPEG-2 BC liefert eine gute AudioqualitSt bei 
Datenraten von 640 - 896 kb/s fttr 5 KanSle mit voller Band- 
breite. Seit 1994 besteht eine weitere Anstrengung des 
MPEG-2 -Audiostandardisierungskommittees darin, einen Multi- 
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kanalstandard mit hoherer QualitSt zu definieren, als sie 
erreichbar ist, wenn eine RuckwartskompatibilitSt zur MPEG-1 
gefordert wird. Dieser nicht-rtickwSrtskompatible Audio- 
standard gemaB MPEG-2 wird als MPEG-2 NBC bezeichnet. Das 
Ziel dieser Entwicklung besteht darin, RundfunkqualitSten 
gemaB den ITU-R-Anf orderungen bei Datenraten von 384 kb/s 
oder darunter ftir 5-kanalige Audiosignale, bei denen jeder 
Kanal die voile Bandbreite hat, zu erreichen. Der Audio- 
codierstandard MPEG-2 NBC wurde April 1997 vollendet. Das 
Schema MPEG-2 NBC wird den Kern ftir den bereits geplanten 
Audiostandard MPEG-4 bilden, welcher hohere Datenraten haben 
wird (tiber 40 kb/s pro Kanal) . Der NBC oder nicht rtickw&rts 
kompatible Standard kombiniert den Codierwirkungsgrad einer 
hochauf losenden Filterbank, von Pradiktionstechniken und der 
redundanzreduzierenden Huf fman-Codierung, um eine Audioco- 
dierung mit Rundfunkqualitat bei sehr niedrigen Datenraten 
zu erreichen. Der Standard MPEG-2 NBC wird auch als MPEG-2 
NBC AAC (AAC = Advanced Audio Coding) bezeichnet. Eine 
detaillierte Darstellung des technischen Inhalts von MPEG-2 
AAC findet sich in M. Bosi, K. Brandenburg, S. Quackenbush, 
L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. 
Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio 
Coding", 101st AES Convention, Los Angeles 1996, Preprint 
4382. 

Effiziente Audiocodierverf ahren entfernen sowohl Redundanzen 
als auch Irrelevanzen von Audiosignalen. Korrelationen 
zwischen Audioabtastwerten und Statistiken der Abtastwert- 
darstellung werden ausgenutzt, um Redundanzen zu entfernen. 
Frequenzbereichs- und Zeitbereichsmaskierungseigenschaften 
des menschlichen Gehorsystems werden ausgenutzt, um nicht- 
wahrnehmbare Signalanteile (Irrelevanzen) zu entfernen. Der 
Frequenzgehalt des Audiosignals wird mittels einer Filter- 
bank in TeilbSnder unterteilt. Die Datenratenreduktion wird 
erreicht, indem das Spektrum des Zeitsignals gemSB psycho- 
akustischen Modellen quantisiert wird, und dieselbe kann ein 
verlustloses Codierverf ahren umfassen. 
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Allgemein gesagt wird ein zeitkontinuierliches Audiosignal 
abgetastet, um ein zeitdiskretes Audiosignal zu erhalten. 
Das zeitdiskrete Audiosignal wird mittels einer Fenster- 
funktion gefenstert, um aufeinanderfolgende B16cke oder 
Frames mit einer bestimmten Anzahl, z. B. 1024, gefensterter 
zeitdiskreten Abtastwerten zu erhalten. Nacheinander wird 
jeder Block von gefensterten zeitdiskreten Abtastwerten des 
Audiosignals in den Frequenzbereich transf ormiert, wobei 
beispielsweise eine modifizierte diskrete Cosinustransf or- 
mation (MDCT) verwendet werden kann. Die somit erhaltenen 
Spektralwerte sind noch nicht quantisiert und mUssen demnach 
quant isiert werden. Das Hauptziel dabei besteht darin, die 
Spektraldaten derart zu quantisieren, daB das Quantisie- 
rungsrauschen durch die quantisierten Signale selbst mas- 
kiert oder verdeckt wird. Dazu wird ein im MPEG-AAC-Standard 
beschriebenes psychoakustisches Modell herangezogen, das 
unter Berucksichtigung der speziellen Eigenschaften des 
menschlichen Gehors abhangig von dem vorliegenden Audiosi- 
gnal Maskierungsschwellen berechnet. Die Spektralwerte wer- 
den nun derart quantisiert, daB das eingeftihrte Quantisie- 
rungsrauschen versteckt und somit unhfirbar wird. Das Quan- 
tisieren fiihrt also zu keinem horbaren Rauschen. 

In dem NBC-Standard wird ein sog. ungleichformiger Quanti- 
sierer verwendet. Zusatzlich wird ein Verfahren verwendet, 
um das Quant isierungsrauschen zu formen. Das NBC-Verf ahren 
verwendet wie auch vohergegenene Standards die einzelne 
VerstSrkung von Gruppen von Spektralkoef f izienten, welche 
als SkalenfaktorbSnder bekannt sind. Um so effizient wie 
moglich zu arbeiten, ist es wtinschenswert, in der Lage zu 
sein, das Quantisierungsrauschen in Einheiten zu formen, die 
an die Frequenzgruppen des menschlichen Gehorsystems mog- 
lichst angelehnt sind. Es ist somit m6glich, Spektralwerte 
zu gruppieren, welche die Bandbreite der Frequenzgruppen 
sehr eng wiedergeben. Einzelne SkalenfaktorbSnder konnen 
mittels Skalenfaktoren in Stufen von 1,5 dB verst&rkt 
werden. Die Rauschf ormung wird erreicht, da verstSrkte 
Koeff izienten groBere Amplituden haben. Daher werden sie im 
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allgemeinen ein hoheres Signal/Rausch-VerhSltnis nach der 
Quantisierung zeigen. Andererseits bendtigen groBere 
Amplituden mehr Bits zur Codierung, d. h. die Bitverteilung 
zwischen den Skalenfaktorbandern wird implizit verSndert. 
Selbstver standi ich muB die Verstarkung dvxrch die Skalenfak- 
toren im Decodierer korrigiert werden. Aus diesem Grund mtis- 
sen die Verst&rkungsinf ormationen, die in den Skalenfaktoren 
in Einheiten von 1,5 dB-Schritten gespeichert sind, als Sei- 
teninf ormationen zu dem Decodierer libertragen werden. 

Nach der Quantisierung der in Skalenfaktorbandern vorliegen- 
den ggf . durch Skalenfaktoren verstarkten Spektralwerte sol- 
len dieselben codiert werden. Das Eingangssignal in ein 
rauschloses Codiermodul ist somit der Satz von beispiels- 
weise 1024 quant isierten Spektralkoef f izienten. Durch das 
rauschlose Codiermodul werden die SStze von 1024 quanti- 
sierten Spektralkoef f izienten in Abschnitte oder "Sections 11 
eingeteilt, derart, daB eine einzige Huf fxnan-Codiertabelle 
("Codebook") verwendet wird, urn jeden Abschnitt zu codieren. 
Aus Codiereff izienzgriinden konnen Abschnittsgrenzen nur an 
Skalenfaktorbandgrenzen vorhanden sein, derart, daB ftir 
jeden Abschnitt oder "Section" des Spektrums sowohl die 
Lange des Abschnitts in Skalenfaktorbandern als auch die 
Huffman-Codiertabellennummer, die ftir den Abschnitt ver- 
wendet wird, als Seiteninf ormationen tibertragen werden 
mils sen. 

Das Bilden der Abschnitte ist dynamisch und variiert typi- 
scherweise von Block zu Block, derart, daB die Anzahl von 
Bits, die benotigt werden, urn den vollen Satz von quanti- 
sierten Spektralkoef f izienten darzustellen, minimiert wird. 
Die Huffman-Codierung wird verwendet, um n-Tupel von quan- 
t isierten Koeff izienten darzustellen, wobei der Huffman-Code 
von einem von 12 Codiertabellen abgeleitet wird. Der maxi- 
male absolute Wert der quant isierten Koeff izienten, der von 
jeder Huf fman-Codiertabelle dargestellt werden kann, und die 
Anzahl von Koeff izienten in jedero n-Tupel ftir jede Codierta- 
belle sind a priori festgelegt. 
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Der Sinn des Bildens der Abschnitte Oder Sections besteht 
also darin, Bereiche mit gleicher Signalstatistik zu grup- 
pieren, um mittels einer einzigen Huf fman-Codiertabelle fiir 
eine Section einen moglichst hohen Codiergewinn zu errei- 
chen, wobei der Codiergewinn allgemein durch den Quotienten 
aus Bits vor der Codierung und Bits nach der Codierung de- 
finiert ist. Mittels einer Codiertabellennummer ("Codebook- 
number"), die in der fur das NBC-Verfahren verwendeten Bit- 
stromsyntax festgelegt ist, wird auf eine der 12 Huffman-Co- 
diertabellen verwiesen, welche fiir einen speziellen Ab- 
schnitt den hochsten Codiergewinn ermoglicht. Der Ausdruck 
"Codiertabellennummer" soil in dieser Anmeldung somit den 
Platz in der Bitstromsyntax bezeichnen, der fiir die Codier- 
tabellennummer reserviert ist. Um 11 verschiedene Codierta- 
bellennummern binar zu codieren, werden 4 Bit benotigt. Die- 
se 4 Bit miissen fur jeden Abschnitt, d. h. fiir jede Gruppe 
von Spektralwerten, als Seiteninformationen iibertragen wer- 
den, damit der Decodierer zum Decodieren die entsprechende 
korrekte Codiertabelle ausw&hlen kann. 

Eine weitere Technik, die neuerdings Beachtung findet, ist 
die ,, Rauschsubstitution ,, , deren Aspekte ausfiihrlich in Do- 
nald Schulz: "Improving Audio Codecs by Noise Substitution", 
Journal of the Audio Eng. Soc, Bd. 44, Nr. 7/8, S. 593 - 
598, Juli/August 1996, beschrieben sind. Wie bereits erwahnt 
wurde, verwenden herkommliche Audiocodieralgorithmen iibli- 
cherweise Maskierungsef fekte des menschlichen Ohrs, um die 
Datenrate oder die Anzahl von zu iibertragenden Bits ent- 
scheidend zu reduzieren. Maskierung bedeutet also, daB eine 
oder mehrere Frequenzkomponenten als Spektralwerte andere 
Komponenten mit niedrigeren Pegeln unhorbar machen. Dieser 
Effekt kann auf zwei Arten und Weisen ausgenutzt werden. 
Zuerst miissen Audiosignalkomponenten, die durch andere 
Komponenten maskiert werden, nicht codiert werden. Zweitens 
ist das Einfiihren von Rauschen durch die eben beschriebene 
Quant isierung erlaubt, wenn dieses Rauschen durch Kompo- 
nenten des urspriing lichen Signals verdeckt wird. 
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Bei rauschhaften Signalen ist das menschliche Gehorsystem 
nicht in der Lage # den exakten Zeitverlauf eines solchen 
Signals zu erfassen. Bei Ublichen Algorithmen ftthrte dies 
dazu, daB sogar die Wellenform des weiBen Rauschens, welche 
ftir das menschliche Gehor nahezu irrelevant ist, codiert 
wurde. Ein gehorrichtiges Codieren von rauschhaltigen 
Signalen erfordert daher hohe Bitraten far Informationen, 
die nicht horbar sind, wenn keine speziellen Vorkehrungen 
getroffen werden. Falls jedoch rauschhaltige Komponenten von 
Signalen erfaBt und mit Informationen iiber ihre Rauschpegel f 
iiber ihren Frequenzbereich oder iiber ihren zeitlichen Aus- 
dehnungsbereich codiert werden, kann eine solche iiber fliissi- 
ge Codierung verringert werden, was zu auBerordentlich 
groBen Biteinsparungen fiihren kann. Diese Tatsache wird 
durch die Psychoakustik untermauert, die besagt, daB der 
Wahrnehmungseindruck von Rauschsignalen primSr von deren 
spektraler Zusammensetzung und nicht von der tatsachlichen 
Wellenform bestimmt wird. Dies ermoglicht also die Benutzung 
der Rauschsubstitutionstechnik bei der Datenreduktion von 
Audiosignalen. 

Der Codierer steht daher vor der Aufgabe, in dem gesamten 
Spektrum des Audiosignals rauschartige oder rauschhafte 
Spektralwerte zu finden bzw. zu erkennen. Eine Definition 
ftir rauschhafte Spektralwerte lautet wie folgt: Wenn eine 
Signalkomponente durch ihren Pegel, durch ihren Frequenzbe- 
reich und durch ihren zeitlichen Ausdehnungsbereich derart 
charakterisiert werden kann, daB sie ohne horbare Unter- 
schiede ftir das menschliche Gehorsystem durch ein Rauscher- 
setzungsverfahren rekonstruiert werden kann, wird diese 
Signalkomponente als Rauschen klassif iziert. Die Erfassung 
dieser Charakteristik kann entweder im Frequenzbereich oder 
im Zeitbereich durchgefiihrt werden, wie es in der zuletzt 
zitierten Ver6f f entlichung dargestellt ist* Das einfachste 
Verfahren besteht beispielsweise darin, tonale, d. h. nicht 
rauschhafte, Komponenten zu erfassen, indem eine Zeit-Fre- 
quenz -Transformation verwendet wird, und indem stationare 



WO 99/04505 



- 7 - 



PCT/EP98/01480 



Spitzen in zeitlich aufeinanderf olgenden Spektren verfolgt 
werden. Diese Spitzen werden als tonal bezeichnet, alles 
andere wird als rauschhaft bezeichnet. Dies stellt jedoch 
eine relativ grobe Rauscherf assung dar. Eine veitere Mog- 
lichkeit, zwischen rauschhaften und tonalen Spektralkom- 
ponenten zu unterscheiden, besteht in der Verwendung eines 
Pradiktors ftir Spektralwerte in aufeinanderfolgenden 
B15cken. Dabei wird eine PrSdiktion von einem Spektrum zu 
dem f olgenden Spektrum , d. h. dem Spektrum, das dem nachsten 
zeitlichen Block oder Frame zugeordnet ist, durchgefuhrt. 
Unterscheidet sich ein pradizierter Spektralwert von einem 
tatsSchlich durch Transformation ermittelten Spektralwert 
des nSchsten zeitlichen Blocks oder Frames nicht oder nur 
wenig, so wird da von ausgegangen, daB es sich bei diesem 
Spektralwert urn eine tonale Spektralkomponente handelt. 
Daraus kann ein TonalitatsmaBjxabgeleitet werden, dessen Wert 
einer Entscheidung zugrundeliegt, urn tonale und rauschhafte 
Spektralwerte voneinander zu unterscheiden. Dieses Erfas- 
sungsverfahren ist jedoch lediglich fttr streng stationare 
Signale geeignet. Es versagt dabei, Situationen zu erfassen, 
bei denen Sinussignale mit gering veranderten Frequenzen 
uber der Zeit vorhanden sind. Solche Signale erscheinen oft 
in Audiosignalen, wie z. B. Vibratos, und es ist fur den 
Fachmann of f ensichtlich, daB diese nicht durch eine rausch- 
hafte Komponente ersetzt werden konnen. 

Eine weitere Moglichkeit zur Erf assung von rauschhaften 
Signalen besteht in der Rauscherfassung durch PrSdiktion im 
Zeitbereich. Hierftir eignet sich ein angepaBtes Filter als 
PrSdiktor, welcher wiederholt angewendet werden kann, urn 
eine linear e Pradiktion durchzufUhren, wie es in der Technik 
hinreichend bekannt ist. Vergangene Audiosignale werden ein- 
gespeist und das Ausgangssignal wird mit dem tatsSchlichen 
Audioabtastwert verglichen. Im Fall eines kleinen Pradikti- 
onsfehlers kann Tonalitat angenommen werden. Urn den Charak- 
ter unterschiedlicher Frequenzregionen zu bestimmen, d. h. 
urn den Spektralbereich zu erfassen, ob eine Gruppe von Spek- 
tralwerten eine rauschhafte Gruppe ist, mussen Zeit-Fre- 
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quenz -Trans forma tionen sowohl des ursprilnglichen als auch 
des pradizierten Signals durchgeftlhrt werden. Dann kann fttr 
jede Frequenzgruppe ein TonalitStsmaB berechnet werden, in- 
dem die ursprunglichen und die prSdizierten Werte mit- 
einander verglichen werden. Ein Hauptproblem dabei ist der 
begrenzte dynamische Bereich des PrSdiktors. Eine rausch- 
hafte Frequenzgruppe mit einem hohen Pegel dominiert den 
PrSdiktor aufgrund des resultierenden groflen Fehlers. Andere 
Frequenzregionen mit tonalen Komponenten konnten als rausch- 
haft interpretiert werden. Dieses Problem kann durch Verwen- 
dung eines iterativen Algorithmus verringert werden, bei dem 
das Fehlersignal normalerweise einen geringeren Pegel als 
das Ursprungssignal hat und wieder durch einen weiteren Pra- 
diktor eingespeist wird, wonach beide prSdizierten Signale 
addiert werden. Weitere Verfahren sind in der Veroffentli- 
chung von Schulz ausgefuhrt. 

Die nun als rauschhaft klassif izierte Gruppe von Spektral- 
werten wird nicht wie ublich quantisiert und Entropie- bzw. 
Redundanz-codiert (mittels beispielsweise einer Huffman-Ta- 
belle) zum Empf anger iibertragen. Stattdessen wird nur eine 
Kennung zur Anzeige der Rauschsubstitution sowie ein MaB filr 
die Energie der rauschhaften Gruppe von Spektralwerten als 
Seiteninformationen iibertragen. Im Empf anger werden dann fur 
die substituierten Koef f izienten Zufallswerte (Rauschen) mit 
der (ibertragenen Energie eingesetzt. Die rauschhaften Spek- 
tralwerte werden also durch Zufallsspektralwerte mit ent- 
sprechendem EnergiemaB substituiert . 

Durch die ttbertragxing einer einzigen Energieinformation an- 
stelle einer Gruppe von Codes, d. h. mehrerer quant isierter 
und codierter Spektralwerte, fur die quantisierten Spektral- 
koef f izienten sind erhebliche Dateneinsparungen moglich. Es 
ist offensichtlich, daB die erreichbaren Datenrateneinspa- 
rungen vom Signal abhSngen. Handelt es sich z. B. um ein 
Signal mit sehr wenigen Rauschanteilen, d. h. sehr wenigen 
rauschhaften Gruppen, oder mit transienten Eigenschaften, so 
wird eine geringere Datenrateneinsparung moglich sein, als 
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wenn ein sehr verrauschtes Signal mit sehr vielen rauschhaf- 
ten Gruppen codiert wird. 

Der eingangs beschriebene Standard MPEG-2 Advanced Audio 
Coding (AAC) untersttitzt die Moglichkeit der Rauschsubsti- 
tution nicht. Die erheblichen Datenrateneinsparungen sind 
mit dem bisherigen Standard daher nicht moglich. 

Die Aufgabe der vorliegenden Erfindung besteht darin, den 
bestehenden Standard MPEG-2 AAC urn die Moglichkeiten der 
Rauschsubstitution derart zu erweitern, daB weder die grund- 
satzliche Codiererstruktur noch die Struktur der vorhandenen 
Bitstromsyntax angetastet wird. 

Diese Aufgabe wird durch ein Verfahren zum Signalisieren 
einer Rauschsubstitution beim Codieren eines Audiosignals 
gemaB Anspruch 1, durch ein Verfahren zum Codieren eines 
Audiosignals gemaB Anspruch 10 und durch ein Verfahren zum 
Decodieren eines Audiosignals gemaB Anspruch 11 gelost. 

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, 
daB im Falle der Durchfuhrung einer Rauschsubstitution ftir 
ein rauschhaftes Band keine Quant isierung und Redundanz- 
Codierung oder Huf fman-Codierung von Spektralwerten durch- 
gefiihrt werden braucht. Stattdessen werden, wie es bereits 
beschrieben vurde, im Decodierer Rausch-Spektralwerte fUr 
eine rauschhafte Gruppe erzeugt, deren MaB fiir die Energie 
dem MaB fiir die Energie der Rausch-substituierten Spektral- 
werte entspricht. In anderen Worten werden fiir rauschhafte 
Gruppen keine Codiertabellen verwendet, da keine Redun- 
danz-Codierung stattfindet. Somit ist auch die Codier- 
tabellennummer, d. h. der entsprechende Platz in der Bit- 
stromsyntax des codierten Audiosignals, iiberf liissig. Dieser 
Platz der Bitstromsyntax, d. h. die Codiertabellennummer , 
kann nun gemSB der vorliegenden Erfindung dazu verwendet 
werden, anzuzeigen, daB eine Gruppe rauschhaft ist und einer 
Rauschsubstitution unterzogen wird. Da, wie es ebenfalls 
erwShnt wurde, lediglich 12 Codiertabellen vorgesehen 
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werden, der Platz in der Bitstromsyntax jedoch 4 Bit 
betrSgt, mit denen insgesamt ein Zahlenbereich von 0-15 
binSr dargestellt werden kann, existieren sog. zusStzliche 
Codiertabellennummern, die auf keine Codiertabelle verwei- 
sen. Lediglich die Codiertabellennummern 0 - 11 verweisen 
auf eine Codiertabellennummer. Bei einem bevorzugten Aus- 
fllhrungsbeispiel der vorliegenden Erfindung wird die Co- 
diertabellennummer 13 verwendet, um dem Decodierer zu si- 
gnalisieren, daB die Gruppe, die in ihren Seiteninf orma- 
tionen die Codiertabellennummer 13, d. h. die zusStzliche 
Codiertabellennummer, aufweist, eine rauschhafte Gruppe ist 
und einer Rauschsubstitution unterzogen worden ist. Ftir 
Fachleute ist es jedoch of fensichtlich, daB auch die zu- 
sStzliche oder freie Codiertabellennummer 12 , 14 oder 15 
eingesetzt werden kann. 

Wie es bereits weiter vorne dargestellt wurde, konnen die 
Spektralwerte, die nach einer Frequenzbereichstransf ormation 
des zeitlichen Audiosignals vorhanden sind, in Skalenfaktor- 
bSnder gruppiert werden, um eine optimale Maskierung des 
Quantisierungsrauschens zu erreichen. Bei dem Standard 
MPEG-2 AAC sind zusatzlich mehrere Skalenfeiktorbander in 
Abschnitte oder "Sections" gruppiert • Eine Section besteht 
daher zumeist aus mehreren Skalenfaktorbandern. Das heiBt, 
daB eine Rauschsubstitution immer fiir eine ganze Section 
signalisiert wird, d. h. ob die Rauschsubstitution aktiv 
oder nicht aktiv ist. Aufgrund der Tatsache, daB die rausch- 
haften Skalenf aktorbander nicht quantisiert werden, miissen 
auch keine Skalenf aktoren fiir dieselben berechnet oder 
Ubertragen bzw. codiert werden. Das heiBt, daB zusStzlich zu 
der Codiertabellennummer, welche die Rauschsubstitution an 
sich anzeigt, eine weitere Stelle im Bitstrom frei ist, 
welche anderweitig besetzt werden kann. Bei dem bevorzugten 
Ausftihrungsbeispiel der vorliegenden Erfindung wird an die 
Stelle, die fiir den Skalenf aktor in den Seiteninf ormationen 
zu einem Skalenf aktorband vorgesehen ist, ein MaB fiir die 
Energie der ersetzten Spektralkoef f izienten geschrieben. Wie 
es bereits erwShnt wurde, hangt die Wahrnehmung von Rausch- 
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signalen primar von deren spektraler Zusammensetzung und 
nicht von deren tatsachlicher Wellenform ab. Aus den Spek- 
tralwerten eines rauschhaften Skalenf aktorbandes wird somit 
ein MaB fur die Energie der Spektralwerte in dem rauschhaf- 
ten Skalenf aktor band berechnet. Diese GrSfie wird ans telle 
des Skalenf aktorbandes in die Seiteninf ormationen einge- 
tragen, ohne daB zusStzliche Seiteninf ormationen benotigt 
werden oder die Struktur der Bitstromsyntax verandert werden 
muB. Diese zu ttbertragende GroBe kann entweder die Gesamt- 
energie der Spektralwerte in einem rauschhaften Skalenfak- 
torband sein oder die mittlere Energie, die beispielsweise 
auf einen Spektralwert oder eine Spektrallinie in dem Ska- 
lenf aktor band normiert ist. Bei dem bevorzugten Ausfiih- 
rungsbeispiel der vorliegenden Erfindung wird jedoch nicht 
die mittlere Energie sondern die Gesamtenergie als MaB ftir 
die Energie verwendet. 

Fur die tibertragung des MaBes fiir die Energie der ersetzten 
Spektralwerte wird vorzugsweise die gleiche Auflosung ver- 
wendet, wie sie zur inversen Skalierung der ubertragenen 
spektralen Daten verwendet wird, d. h. eine logarithmische 
Skalierung mit einer Auflosung von 1,5 dB beim AAC-Standard. 
Xhnlich wie beim Layer-III-Verfahren wird beim AAC-Verfahren 
zur Rekonstruktion der nicht-rauschhaften, d. h. tonalen, 
Spektralanteile a) die inverse Kennlinie des nichtlinearen 
Quantisierers auf den quantisierten Wert (X) der Spektralli- 
nie angewendet (Y = X 4/3 ) , und dann b) eine "inverse Skalie- 
rung" entsprechend der Ubertragenen Skalenf aktoren durchge- 
fiihrt. (Z = Y x 2< SF/4 >) , wobei SF der Skalenfaktor des je- 
weiligen Skalenf aktorbandes ist, und wobei Z den requanti- 
sierten Spektralwert darstellt. Die Auflosung betrSgt somit 
1,5 dB. 

Bei dem Verfahren zum Signalisieren einer Rauschsubstitution 
beim Codieren eines Audiosignals gemSB der vorliegenden 
Erfindung, bei dem fur ein rauschhaftes Skalenf aktor band 
kein Skalenfaktor benotigt wird, sondern stattdessen das MaB 
fur die Energie der substituierten Spektralwerte eingesetzt 
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wird, werden die selben Codiergesetze ftir das MaB fiir die 
Energie der substituierten Spektralwerte eingesetzt wie sie 
sonst beim Skalenfaktor zur Anvendung kommen wtirden. Dies 
stellt eine vorteilhafte Nutzung bereits Vorhandener Resour- 
cen im AAC-Codierer dar und erfordert keinerlei zusStzliche 
Seiteninf ormationen . 

Eine weitere vorteilhafte Anwendung der Signalisierung der 
Rauschsubstitution ist bei Stereoaudiosignalen gegeben. Das 
menschliche Ohr ist in der Lage, eine Korrelation zwischen 
den Signalen bzw. KanSlen (L und R) eines Stereokanalpaars, 
welches bei AAC als "Channel Pair" bezeichnet wird f bis zu 
einem gewissen Grad wahrzunehmen. Daher sollte auch im Falle 
einer Rauschsubstitution die Korrelation zwischen den beiden 
ersetzten bzw. substituierten Rauschsignalen des Kanalpaars 
ahnlich zu der des Originalsignals sein. Skalenf aktorbander 
im linken und im rechten Kanal, welche die gleiche Mitten- 
frequenz haben, konnen beide rauschsubstituiert werden , wenn 
eine Rauschhaf tigkeit erkannt wird. Werden beide Kanale 
rauschsubstituiert, und werden keine weiteren Vorkehrungen 
getroffen, so haben die im Codierer zufSllig erzeugten 
Rausch-Spektralwerte zwar die gleiche Gesamtenergie wie im 
urspriinglichen Audiosignal, dieselben sind jedoch aufgrund 
des zufSlligen Erzeugens vollig unkorreliert. Dies kann 
unter bestimmten Umstanden zu horbaren Fehlern ftihren. Um 
dies zu vermeiden ist es moglich, die selben zufSllig er- 
zeugten Rausch-Spektralwerte eines Skalenfaktorbandes fttr 
beide Kanale zu verwenden, was einer vollstMndigen Korrela- 
tion der rauschhaf ten Skalenfaktor binder des linken und 
rechten Kanals entspricht. 

Dabei wird gemSB einem bevorzugten Ausfiihrungsbeispiel der 
vorliegenden Erfindung folgendermaBen vorgegangen: Ftir jedes 
Kanalpaar existiert im AAC-Standard eine sog. Mitte/Seite- 
Maske (M/S-Maske) , welche im Standard selbst als "ms_used" 
(= ms-verwendet) bezeichnet wird. Diese M/S-Maske ist ein 
Bitvektor, der bandweise anzeigt r ob zwischen den beiden 
Kanalen eine M/S-Stereocodierung angewendet worden ist, 
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welche fiir Fachleute bekannt ist und einfiihrend in J.D. 
Johnston, A.J. Ferreira: "Sum-Difference Stereo Transform 
Coding", IEEE ICASSP 1992, S. 569 - 571, und auch im MPEG- 
AAC-Standard beschrieben ist. Die M/S-Maske besteht aus ei- 
ner Anzahl von Bits, wobei jedes Bit einem Skalenfaktorband 
zugeordnet ist. Wird in einem Skalenfaktorband eine M/S-Co- 
dierung verwendet, so wird ein Signalisierungsbit in der 
M/S-Maske in den Seiteninf ormationen gesetzt sein, das die 
M/S-Codierung dem Decodierer mitteilt. Wird jedoch ein 
rauschhaftes Skalenfaktorband im linken sowie im rechten 
Kanal fiir die gleiche Mittenfreguenz der Skalenf aktorbander 
(fiir L und ftir R) erkannt, so findet selbstverstSndlich 
keine Mitte/Seite-Codierung statt. Das M/S-Bit fiir dieses 
Skalenfaktorband steht also ebenso wie die Codiertabellen- 
nummer und der Skalenfaktor in dem Bitstrom entsprechend der 
Bitstromsyntax zur Verfiigung, urn etwas anderes zu signali- 
sieren. In diesem Fall kann das Bit der M/S-Maske fiir das 
rauschhafte Skalenfaktorband beider Kanale verwendet werden, 
um anzuzeigen, ob ftir den linken und rechten Kanal unabhan- 
gige Rausch-Spektralwerte oder Rauschvektoren erzeugt werden 
soli en, was dem Normal fall entsprechen wiirde, oder ob der 
gleiche Rauschvektor fiir sowohl den linken als auch rechten 
Kanal in dem rauschhaften Skalenfaktorband verwendet werden 
soil. 

Wie es fiir Fachleute bekannt ist, konnen bei nichtrausch- 
haften Skalenf aktorbandern die Skalenf aktoren mittels einer 
Dif ferenzcodierung codiert werden. Fiir einen entsprechenden 
Skalenfaktor in einem folgenden Skalenfaktorband muB nicht 
wieder der gesamte Wert des Skalenf aktors codiert werden, 
sondern lediglich die Differenz desselben vom vorhergehen- 
den. Dies wird als Dif ferenzcodierung bezeichnet. Diese 
Dif ferenzcodierung wird bei einem bevorzugten Ausfiihrungs- 
beispiel der vorliegenden Erfindung ebenfalls zum Codieren 
des MaBes fiir die Energie der Spektralanteile in einem 
rauschhaften Skalenfaktorband verwendet. Damit muB ftir ein 
folgendes Skalenfaktorband nicht wieder das gesamte MaB der 
Energie sondern lediglich die Differenz des aktuellen vom 
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vorhergehenden codiert werden, was wiederum zu Biteinsparun- 
gen AnlaB gibt. Selbstverst&ndlich muB immer ein erster Aus- 
gangswert vorhanden sein, der jedoch auch ein fester von 
vorneherein vorgegebener Wert sein kann. Dieses Verfahren 
der Differenzcodierung wird daher besonders vorteilhaft 
sein f wenn auf einanderf olgende Ska lenfakt or bander Frames 
rauschhaft sind. 
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Patentansprtlche 

Verfahren zura Signalisieren einer Rauschsubstitution 
beim Codieren eines Audiosignals, mit folgenden Schrit- 
ten: 

Transformieren eines zeitlichen Audiosignals in den Fre- 
quenzbereich, um Spektralwerte zu erhalten; 

Gruppieren der Spektralwerte in Gruppen von Spektralwer- 
ten; 

Erfassen, ob eine Gruppe von Spektralwerten eine rausch- 
hafte Gruppe ist; 

falls eine Gruppe nicht rauschhaft ist, Zuweisen einer 
Codiertabelle aus einer Mehrzahl von Codiertabellen zum 
Redundanzcodieren der nicht rauschhaften Gruppe,. wobei 
mittels einer Codiertabellennummer auf die der Gruppe 
zugewiesene Codiertabelle verwiesen wird; und 

falls eine Gruppe rauschhaft ist, Zuweisen einer zusStz- 
lichen Codiertabellennummer , die nicht auf eine Codier- 
tabelle verweist, zu dieser Gruppe, um zu signalisieren, 
daB diese Gruppe rauschhaft ist und daher nicht redun- 
danz-codiert wird. 

Verfahren nach Anspruch 1, bei dem die Gruppen von Spek- 
tralwerten Abschnitte (Sections) sind, wobei eine Co- 
diertabellennummer ftlr nicht rauschhafte Abschnitte und 
eine zus&tzlich Codiertabellennummer fiir rauschhafte Ab- 
schnitte vergeben werden. 

Verfahren nach Anspruch 2, 

bei dem ein Abschnitt eines oder mehrere Skalenfaktor- 
bander aufweist, wobei jedem Skalenf aktorband ein Ska- 
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lenfaktor zugeordnet ist; und 

bei dem im Falle eines rauschhaften Skalenf aktorbandes 
ein MaB fur die Energie der Spektralwerte in dem rausch- 
haften Skalenfaktorband anstelle eines Skalenf aktors co- 
diert wird. 

4. Verfahren nach Anspruch 3, bei dem das MaB fiir die Ener- 
gie der Spektralwerte in einer rauschhaften Gruppe die 
auf einen Referenzwert normierte mittlere Energie der- 
selben in einem Skalenfaktorband ist. 

5. Verfahren nach Anspruch 3, bei dem das MaB fur die Ener- 
gie die Gesamtenergie der Spektralwerte in dem rausch- 
haften Skalenfaktorband ist. 

6. Verfahren nach Anspruch 3 oder 4, bei dem zum Codieren 
des MaBes fiir die Energie der rauschhaften Spektralwerte 
in dem Skalenfaktorband die selbe Skalierung verwendet 
wird, die iiblicherweise zum Codieren eines Skalenf aktors 
eines Skalenf aktorbandes verwendet wird, das kein 
rauschhaftes Skalenfaktorband ist. 

7. Verfahren nach einem der Anspruche 3-6, bei dem die 
Codierung des MaBes fur die Energie der Spektralwerte in 
rauschhaften Skalenf aktorbandern eine Dif ferenzcodierung 
ist. 

8. Verfahren nach einem der Ansprtiche 1-7, 

bei dem das Audiosignal ein Stereoaudiosignal ist, 

bei dem eine Mitte/Seite-Codierung zweier Kanale des 
Stereoaudiosignals durch eine Mitte/Seite-Maske gruppen- 
weise anzeigbar ist, und 



bei dem im Fall von f requenzmSBigen entsprechenden 
rauschhaften Gruppen beider KanSle durch die Mitte/Sei- 



WO 99/04505 



- 17 - 



PCT/EP98/01480 



te-Maske anzeigbar ist, ob unterschiedliche oder gleiche 
Rausch-Spektralwerte fUr beide Kanale beim Decodieren 
eines decodierten Audiosignals zu verwenden sind. 

9. Verfahren nach einem der vorhergehenden Ansprttche, bei 
dem das Erfassen, ob eine Gruppe von Spektralwerten eine 
rauschhafte Gruppe ist, mittels des zeitlichen Audiosi- 
gnals oder mittels der Spektralwerte des zeitlichen Au- 
diosignals oder mittels sowohl des zeitlichen Audiosi- 
gnals als auch der Spektralwerte des zeitlichen Audio- 
signals durchgefUhrt wird, 

10. Verfahren zum Codieren eines Audiosignals mit folgenden 
Schritten: 

Signalisieren einer Rauschsubstitution nach einem der 
Anspruche 1-9; 

Berechnen eines MaBes fiir die Energie einer rauschhaften 
Gruppe ; 

Eintragen des MaBes fur die Energie in der Gruppe zuge- 
ordnete Seiteninformationen; 

Eintragen der zusStzlichen Codiertabellennummer in die 
der Gruppe zugeordneten Seiteninformationen; 

Quantisieren der nichtrauschhaften Gruppen und Codieren 
der quantisierten nichtrauschhaften Gruppen unter Ver- 
wendung der Codiertabelle, auf die durch die Codier- 
tabellennummer verwiesen wird, wahrend fttr rauschhafte 
Gruppen keine Quantisierung oder Codierung stattfindet; 
und 

Bilden eines Bitstroms, der quantisierte und codierte 
nichtrauschhafte Gruppen sowie fiir rauschhafte Gruppen 
ein MaB fiir die Energie der Spektralwerte der rausch- 
haften Gruppen und die zusatzliche Codiertabellennummer 
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zur Signalisierung der rauschhaften Gruppen aufweist. 

11. Verfahren zum Decodieren eines codierten Audiosignals 
mit folgenden Schritten: 

Empfangen eines Bitstroms; 

Redundanz -Decodieren von nichtrauschhaf ten Gruppen auf- 
grund einer durch eine Codiertabellennuiraner angezeigten 
Codiertabelle und Requantisieren von redundanz-decodier- 
ten, quantisierten Spektralwerte; 

Erfassen einer rauschhaften Gruppe von Spektralwerten 
aufgrund einer zusatzlichen Codiertabellennummer , die 
einer solchen Gruppe zugeordnet ist; 

Erfassen eines MaBes fiir die Energie der Spektralwerte 
in der rauschhaften Gruppe aufgrund von der Gruppe zu- 
geordneten Seiteninf ormationen; 

Erzeugen von Rausch-Spektralwerten fiir die rauschhafte 
Gruppe, wobei das MaB der Energie der Rausch-Spektral- 
werte in der rauschhaften Gruppe gleich dem MaB fiir die 
Energie von Spektralwerten der rauschhaften Gruppe in 
dem urspriinglichen Signal ist; 

Transformieren der requantisierten Spektralwerte und der 
Rausch-Spektralwerte in den Zeitbereich, um ein deco- 
diertes Audiosignal zu erhalten. 

12. Verfahren gemSB Anspruch 11, bei dem das Erzeugen der 
Rausch-Spektralwerte durch Erzeugen von Zufallszahlen 
oder durch Erhalten derselben aus einer Tabelle statt- 
findet, wobei die addierte Energie der Rausch-Spektral- 
werte dem MaB der Energie der Spektralwerte der rausch- 
haften Gruppe des urspriinglichen Audiosignals ent- 
spricht. 
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13. Verfahren nach Anspruch 11 oder 12, das ferner folgende 
Schritte aufweist: 

Erfassen einer Mitte/Seite-Maske fiir Stereoaudiosignale; 

aufgrund der Mitte/Seite-Maske fiir Stereoaudiosignale, 
Verwenden identischer Rausch-Spektralwerte fllr entspre- 
chende rauschhafte Gruppen beider KanSle, oder Erzeugen 
zweier unabhangiger Gruppen von Rausch-Spektralwerten 
fiir bei Kanaie. 
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